#ускорение роллаута'16.10.2025
QeRL позволяет обучать 32B RL на одном H100 с NVFP4 — быстрее роллауты и лучшее исследование
'QeRL сочетает NVFP4 weight-only квантизацию с LoRA и AQN, ускоряя роллауты и позволяя обучить 32B политику на одном H100 при сопоставимой точности.'